音声情報処理 07
⾳楽における単⼀⾳と混合⾳・⾳響特徴抽出
音楽 Musicからの⾳響特徴抽出と応⽤
2つのアプローチ
単⼀⾳に対するアプローチ
単⼀⾳に対する楽器⾳響特徴抽出
単⼀⾳に対する楽器推定
混合⾳に対するアプローチ
混合⾳に対する楽器⾳響特徴量抽出
混合⾳に対する楽器推定
混合⾳からの低次元特徴抽出
混合⾳からの高次元特徴抽出
単⼀⾳
⼀つの⾳源(楽器,あるいは歌声)から発⽣した⾳声信号波形を扱う
ある時刻における基本周波数は唯1つ
単⼀のメロディラインなど
混合⾳
複数の⾳源から発⽣した⾳声信号波形が組み合わされて⼀つの⾳声信号波形を構成している
ある時刻における基本周波数は唯1つとは限らない
コード進⾏や⼀般的に聴取する「音楽 Music」そのもの
単⼀⾳からの特徴抽出と楽器同定
楽器⾳特徴抽出の基本となる概念は調波構造
調波構造
打楽器以外の多くの楽器がもつ性質
聴覚上1つに聞こえる⾳には実は基本周波数以外に整数倍の周波数成分が含まれていること
昔:倍⾳の振幅⽐で⾳⾊が決まると信じられていた
今:倍⾳の振幅⽐の時間変化や発⾳直後の⾮調波成分も関係と明らかになった
楽器同定に⽤いられる特微量
倍⾳振幅⽐率関連
Spectral Centroid,奇数次倍⾳と偶数次倍⾳の振幅 Amplitude⽐
時間変化関連
周波数 Frequency 振動数変調,振幅 Amplitude変調,⽴ち上がり時間
混合⾳からの特徴抽出と楽器同定
混合⾳からの特徴抽出のポイント
異なる⾳源の倍⾳成分が同じ周波数で重なる
⾳源分離技術で完全に分解できれば単⼀⾳の分析と同じ問題
混合⾳からの⾳響特徴抽出
⾳の重なりによる影響の受け⽅で特微量を分類
同定対象以外の⾳の基本周波数を推定して,最⼩公倍数の⾳にマスキング
テンプレートマッチングによる⾳響特徴抽出
混合⾳からの低次特徴量の抽出
楽器⾳を分離して,各楽器から特徴量抽出をするアプローチは難しい
混合⾳全体を1つの⾳⾊として捉えて混合⾳全体から直接特徴抽出
複数の特徴量の組み合わせによって,混合⾳全体を表現
MFCCや以下で説明する特徴量を使う
そもそも混合⾳の抽出⾃体を諦めて特微量を抽出しても実現可能になるアプリケーションは多い
ジャンル識別,ムード検出,映像との調和度計算,楽曲類似度
エンジニアリングチックな考え方
抽出方法
入力、出力、意味を考えるの大事
Spectral Centroid
振幅 Amplitudeを重みとした周波数 Frequency 振動数の重み付き平均
Spectral Rolloff
ある周波数 Frequency 振動数$ R_t!以下の周波数帯域におけるパワー値の累積値が,全体のパワー累積値についての閾値(占有率)$ Pを満たす周波数$ R_t
Spectral Flux
となりあうフレーム間における周波数ビンの正規化パワーの⼆乗差の合計値
ある時刻における変化の度合いを見る
Zero Crossing Rate
時間領域信号$ x(t)の符号が変わる回数
tにおける直線x = 0をまたぐ回数
⾼次な特微量の抽出
⾳楽における⾼次な特徴量
メロディやハーモニーなどの⾳楽に対して直感的 intuitiveに認知する特徴量
⾼次な特徴量の抽出研究
メロディのF0奇跡
ビートの抽出
繰り返し構造やサビの抽出
コード進⾏の抽出
楽器構成推定
ドラムパターンの抽出
歌⼿の声⾊の抽出